
from lxml import etree

if __name__ == '__main__':
    tree = etree.parse('test.html',etree.HTMLParser())
    # result =  tree.xpath('/html/head/link')
    #斜杠表示一个层级，html下的head的link，返回link里的列表
    #双斜杠表示多个层级，作用与两个标签之间/html//link
    #双斜杠还可以省略前面的所有标签//link,可以定位到所有的link标签

    # result1 =  tree.xpath('//div[@.class = "abc"]')
    #可以使用//div[@.class = "abc"],定位到属性为abc的div，只要是属性为abc的，都会被读取。。。。属性定位。。。。
    #xpath返回的是列表

    # result2 =  tree.xpath('//div[@.class = "abc"]/p[3]')
    #属性是abc的div标签，下的第三个P标签，注意，这个下标是从1开始的，数到几就是几。。。。。。索引定位。。。。

    # result3 =  tree.xpath('//div[@class = "input-items"]/li[2]/a/text()')
    #//text可以直接获取属性div下的所有文本内容。一个/只能获取下面直系的文本内容

    result3 =  tree.xpath('//div[@class = "input-items"]/li[2]/a/@href')
    #取属性的方法。如某src，href。定位到该标签后，直接/@href（标签名）


